Googles prosjekt Astra, Veo og Gemini oppgraderer AI-fremskritt
Dette er Googles respons på OpenAI.
En generell AI, en AI som virkelig kan brukes daglig, det ville vært pinlig å holde en pressekonferanse hvis det ikke er slik nå.
Den tidlige morgenen 15. mai begynte den årlige "Vårfestivalgallaen for teknologiens verden" Google I/O utviklerkonferansen offisielt. Hvor mange ganger ble kunstig intelligens nevnt i den 110 minutter lange hovedtalen? Google har telt opp:
Ja, AI blir diskutert hvert minutt.
Konkurransen om generativ AI har nylig nådd et nytt klimaks, og innholdet i denne I/O-konferansen dreier seg naturlig om kunstig intelligens.
“For ett år siden på denne scenen delte vi først våre planer for den native multimodale store modellen, Gemini. Det markerte den nye generasjonen av I/O,” sa Googles administrerende direktør Sundar Pichai. “I dag håper vi at alle kan dra nytte av Geminis teknologi. Disse banebrytende funksjonene vil trenge inn i søk, bilder, produktivitetsverktøy, Android-systemer og mange andre aspekter.”
For øyeblikket er både 1.5 Pro og 1.5 Flash tilgjengelige for offentlig forhåndsvisning og tilbyr et kontekstvindu på 1 million tokens i Google AI Studio og Vertex AI. Nå gir 1.5 Pro også et kontekstvindu på 2 millioner tokens for utviklere som bruker API-en og Google Cloud-kunder via en venteliste.
I tillegg har Gemini Nano blitt utvidet fra ren tekstinnputt til bildeinputt. Senere i år, med start fra Pixel, vil Google lansere multimodal Gemini Nano. Dette betyr at mobilbrukere ikke bare kan behandle tekstinput, men også forstå mer kontekstuell informasjon, som visuelle elementer, lyd og talespråk.
Gemini-familien ønsker et nytt medlem velkommen: Gemini 1.5 Flash
Den nye 1.5 Flash er optimalisert for hastighet og effektivitet.
Ny generasjon åpen kildekode stor modell Gemma 2
I dag lanserte Google også en serie oppdateringer til den åpne kildekode store modellen Gemma – Gemma 2 er her.
Som introdusert, bruker Gemma 2 en ny arkitektur som har som mål å oppnå banebrytende ytelse og effektivitet, de nye åpne kildekode modellparametrene er 27B.
Når det gjelder lange videoer, kan Veo produsere videoer på 60 sekunder eller enda lengre. Det kan gjøre dette gjennom en enkelt prompt eller ved å gi en serie med prompts som sammen forteller en historie. Dette er nøkkelen for anvendelsen av videogenereringsmodeller i film- og TV-produksjon.
Veo er basert på Googles arbeid med generering av visuelt innhold, inkludert Generative Query Network (GQN), DVD-GAN, Image-to-Video, Phenaki, WALT, VideoPoet, Lumiere og andre.